基于素材 AI 自动剪辑开源项目调研与最佳方案(2026)
基于素材 AI 自动剪辑开源项目全景调研与最佳方案(2026)
全面调研 GitHub 上所有基于素材 AI 自动剪辑/生成的开源项目,涵盖文生视频、素材混剪、长转短裁剪、AI 解说、智能切片、Agentic 视频生成等全部技术路线。按方法分类对比,给出不同场景下的最优方案。
一、项目全景(按 Star 排序)
Tier 1:万星级项目(>10k ⭐)
| 项目 | ⭐Stars | 语言 | 定位 | 关键特性 |
|---|---|---|---|---|
| MoneyPrinterTurbo | 88,205 | Python | 一键文生短视频 | 文案→素材匹配→TTS→字幕→合成,全流程自动 |
| Pixelle-Video | 22,720 | Python | AI 全自动短视频引擎 | ComfyUI/API 生图生视频+TTS+BGM,模板化,支持数字人/动作迁移 |
| VideoLingo | 17,485 | Python | Netflix 级字幕/翻译/配音 | 全自动视频搬运,字幕切割精准到词 |
| CogVideo | 12,785 | Python | 文/图生视频模型 | 智谱AI出品,文本→视频扩散模型 |
| HunyuanVideo | 12,207 | Python | 腾讯视频生成模型 | 大规模视频生成框架 |
| KrillinAI | 10,294 | Go | AI 视频翻译配音 | 100+语言,全链路(下载→转录→翻译→配音→合成) |
| ViMax | 10,115 | Python | Agentic 视频生成 | Agent 充当导演/编剧/制片,All-in-One |
| Toonflow | 10,047 | TypeScript | AI 短剧/动画创作 | 小说→分镜→角色→动画短剧,桌面端 |
Tier 2:千星级项目(1k-10k ⭐)
| 项目 | ⭐Stars | 语言 | 定位 | 关键特性 |
|---|---|---|---|---|
| NarratoAI | 9,844 | Python | AI 解说+自动剪辑 | 影视解说方向,一键生成解说视频 |
| ShortGPT | 7,405 | Python | Shorts/TikTok 自动化 | 实验性框架,YouTube/TikTok 内容自动化 |
| MoneyPrinterPlus | 6,530 | Python | 批量混剪+多平台分发 | 本地素材混剪,自动发布抖音/快手/小红书 |
| InfiniteTalk | 6,905 | Python | 无限时长数字人视频 | 图/视频生视频,数字人口播 |
| FunClip | 5,813 | Python | 语音驱动精准裁剪 | 阿里达摩院,FunASR+LLM 高光检测 |
| AutoClip | 5,657 | Python | AI 视频智能切片 | YouTube/B站下载→AI分析→自动切片→合集 |
| auto-editor | 4,425 | Nim | 静音/无动作自动剪切 | 信号检测式剪辑,极轻量 |
| HunyuanVideo-1.5 | 4,485 | Python | 轻量视频生成模型 | 腾讯混元,轻量化推理 |
| AI-Youtube-Shorts-Generator | 3,884 | Python | Opus Clip 开源替代 | 长视频→竖屏短视频,LLM 高光检测 |
| pyJianYingDraft | 3,543 | Python | Python 生成剪映草稿 | 构建全自动化混剪流水线的关键桥梁 |
| ChopperBot | 2,717 | Java | 直播智能切片机器人 | 虎牙/斗鱼/抖音/B站直播切片+自动发布 |
Tier 2.5:千星级新兴项目
| 项目 | ⭐Stars | 语言 | 定位 | 关键特性 |
|---|---|---|---|---|
| Edit Mind | 1,600 | TypeScript/Python | 本地视频知识库 & 语义搜索 | YOLO+DeepFace+Whisper 多模态索引,自然语言检索素材,NLE 集成(DaVinci/FCP) |
Tier 3:百星级潜力项目(100-1000 ⭐)
| 项目 | ⭐Stars | 语言 | 定位 |
|---|---|---|---|
| videoWater | 1,096 | Go | 视频批量处理(水印/字幕/混剪/全自动剪辑) |
| JJYB_AI 智剪 | 911 | HTML | 智能剪辑+AI解说(离线TTS/混剪) |
| MoneyPrinterAICreate | 298 | Python | 基于 MoneyPrinterTurbo,接入万相通义 AI 文/图生视频 |
| ClippedAI | 167 | Python | OpusClip 开源替代,100% 免费无限制 |
| 短视频矩阵混剪系统 | 140 | Java | 分钟级千条不重复混剪+多账号分发 |
| n8n-youtube-to-shorts | 108 | N/A | n8n 工作流:长视频→多条 Shorts |
二、技术路线分类
路线 A:AI 全自动文生视频(Text-to-Video Pipeline)
代表:Pixelle-Video(22.7k⭐)、MoneyPrinterTurbo(88k⭐)、ShortGPT(7.4k⭐)
核心流程:
输入主题/文案
↓
LLM 生成视频脚本(分段 + 画面描述)
↓
AI 生成配图/视频(ComfyUI / DashScope / WAN2.1 / Kling / Seedance)
↓
TTS 语音合成(Edge-TTS / ChatTTS / Index-TTS / CosyVoice)
↓
添加字幕 + BGM
↓
FFmpeg 合成最终视频
技术差异:
| 项目 | 画面来源 | 视频质量 | 扩展性 |
|---|---|---|---|
| Pixelle-Video | ComfyUI 生图/生视频 + 直连 API(DashScope/Kling/Seedance) | ⭐⭐⭐⭐⭐ | 模板系统 + 数字人 + 动作迁移 |
| MoneyPrinterTurbo | Pexels/Pixabay 库存素材 | ⭐⭐⭐ | 简单高效,批量生产 |
| ShortGPT | Pexels + DALL-E | ⭐⭐⭐ | 实验性,社区维护 |
关键差异:Pixelle-Video 用 AI 生成画面(Diffusion 模型),MoneyPrinterTurbo 从公共库匹配画面。前者画面独特但需 GPU,后者零 GPU 但素材同质化。
路线 B:素材混剪/二次创作(Material-Driven Remix)
代表:MoneyPrinterPlus(6.5k⭐)、pyJianYingDraft(3.5k⭐)、JJYB_AI(911⭐)、video-clip-agent(26⭐)
核心流程:
自有素材库(视频/图片)
↓
AI 多模态分析(语音→文字、画面→标签、情绪→节奏)
↓
智能筛选与排列组合(去重、去水印、匹配主题)
↓
自动添加转场/特效/字幕/BGM
↓
输出成片(FFmpeg 或生成剪映草稿)
技术栈:
- 语音:Whisper / FunASR(转录)
- 视觉:CLIP / 通义千问 VL(画面理解与标签)
- 决策:LLM(片段选择、排列、节奏编排)
- 渲染:FFmpeg(基础)/ pyJianYingDraft→剪映(高质量)
- 去重:感知哈希 + 视觉指纹
核心优势:使用自有素材、原创度高、适合带货/短剧推广/矩阵分发
路线 C:长视频→短视频裁剪(Long-to-Short Clipping)
代表:FunClip(5.8k⭐)、AutoClip(5.7k⭐)、AI-Youtube-Shorts-Generator(3.9k⭐)、ChopperBot(2.7k⭐)
核心流程:
长视频(直播录像/播客/访谈/影视)
↓
ASR 高精度转录(FunASR / Whisper)
↓
LLM 分析 → 识别高光时刻/精彩片段
↓
精准时间戳裁剪
↓
竖屏 9:16 重构(人脸追踪裁切)
↓
自动加字幕 + 封面生成
↓
输出短视频
项目差异:
| 项目 | 输入源 | AI 分析方式 | 输出 |
|---|---|---|---|
| FunClip | 任意视频 | FunASR + LLM 语义分析 | 精准时间戳裁剪 |
| AutoClip | YouTube/B站 | 通义千问多模态分析 | 切片 + 智能合集 |
| AI-Shorts-Generator | YouTube | Whisper + GPT 高光检测 | 竖屏 Shorts |
| ChopperBot | 直播流 | 实时弹幕/礼物/高能检测 | 直播切片 + 自动发布 |
路线 D:AI 解说驱动(Narration-Driven)
代表:NarratoAI(9.8k⭐)、JJYB_AI(911⭐)
核心流程:
原始影视片段
↓
AI 理解剧情/画面内容(多模态 LLM)
↓
自动生成解说文案
↓
TTS 配音(情感化语音)
↓
按解说节奏重新裁剪和编排原片
↓
成片输出
适用:影视解说、纪录片解说、游戏解说
路线 E:Agentic 视频生成(Agent 驱动的全流程)
代表:ViMax(10.1k⭐)、Toonflow(10k⭐)、video-clip-agent(26⭐)
核心思路:用 AI Agent 模拟影视制作团队的协作流程。
ViMax 架构:
用户输入主题/需求
↓
┌───────────────────────────────────────┐
│ Director Agent(导演)→ 整体规划 │
│ Screenwriter Agent(编剧)→ 写剧本 │
│ Producer Agent(制片)→ 资源调度 │
│ Video Generator → 生成最终视频 │
└───────────────────────────────────────┘
↓
多镜头、多场景的完整视频
Toonflow 架构:
小说/剧本文本
↓
AI 编剧(剧本适配)→ 智能分镜 → 角色生成 → 视频渲染
↓
动画短剧
核心特征:
- 不是单一管道,而是多 Agent 协作
- 每个 Agent 负责一个专业领域(编剧/导演/美术/剪辑)
- 支持迭代优化(Agent 自我审查和修改)
- 代表了 2026 年最前沿的技术方向
路线 F:视频翻译/搬运(Translation & Repurpose)
代表:VideoLingo(17.5k⭐)、KrillinAI(10.3k⭐)
核心流程:
外语视频
↓
下载 → ASR 转录 → AI 翻译 → TTS 配音 → 字幕对齐 → 合成
↓
本地化视频(保留原画面,替换语音和字幕)
路线 G:信号检测式剪辑(Signal-Based Auto-Cut)
代表:auto-editor(4.4k⭐)
核心流程:
原始录制视频
↓
音频波形分析(静音检测)+ 画面动作检测
↓
自动剪除静音/无动作片段
↓
输出紧凑视频
特点:零 AI 成本、确定性 100%、极快速。只做"减法"不做创意。
路线 H:视频知识库 & 素材语义检索(Video Knowledge Base)
代表:Edit Mind(1.6k⭐)
核心流程:
本地视频素材库
↓
后台自动索引(监听文件夹新增)
↓
┌──────────────────────────────────────────────────┐
│ Whisper 语音转录(全文可搜) │
│ YOLO 物体检测(人/车/动物等) │
│ DeepFace 人脸识别(按人物搜索) │
│ 场景描述(LLM 生成自然语言描述) │
│ OCR 画面文字识别 │
└──────────────────────────────────────────────────┘
↓
多模态向量融合 → ChromaDB 本地向量数据库
↓
自然语言搜索("找到 @张三 在谈论 AI 的片段")
↓
精准定位到帧 → 一键发送到 NLE 时间线
技术架构:
| 组件 | 技术栈 |
|---|---|
| Web 服务 | React Router V7 + TypeScript + Vite |
| 后台任务 | Node.js + Express + BullMQ(队列) |
| ML 服务 | Python + PyTorch + Whisper + YOLO + DeepFace |
| 向量数据库 | ChromaDB |
| 关系数据库 | PostgreSQL(Prisma ORM) |
| NLP 推理 | Ollama(本地)或 Google Gemini |
| 部署 | Docker Compose(支持 CUDA) |
核心优势:
- 解决剪辑前最耗时的问题:从海量素材中"找到对的片段"
- 100% 本地运行,隐私安全,适合 NDA 项目和未发布内容
- NLE 集成:已支持 DaVinci Resolve 和 Final Cut Pro 插件,一键发送到时间线
- 多模态搜索:不只搜文字,还能搜画面内容、人物、物体、场景
- 持续索引:后台监听文件夹变化,新素材自动入库
局限性:
- 当前处于 v0.22 活跃开发阶段,尚未 production-ready
- 不做剪辑决策和视频生成,定位是"剪辑师的第二大脑"
- 需要较强硬件(视频处理+ML 推理消耗大)
与其他路线的关系:Edit Mind 本身不生成或剪辑视频,而是素材检索基础设施。它可以作为路线 B(素材混剪)和路线 C(长转短)的上游工具——先用 Edit Mind 高效找到目标素材,再用其他工具完成剪辑。
三、全维度对比矩阵
| 维度 | 文生视频(A) | 素材混剪(B) | 长→短(C) | 解说驱动(D) | Agent驱动(E) | 翻译搬运(F) | 信号裁切(G) | 素材检索(H) |
|---|---|---|---|---|---|---|---|---|
| 代表项目 | Pixelle | MPP+剪映 | FunClip | NarratoAI | ViMax | VideoLingo | auto-editor | Edit Mind |
| 素材来源 | AI 生成 | 自有素材 | 已有长视频 | 已有视频 | AI 生成 | 外语视频 | 录制素材 | 自有素材库 |
| 是否需要自有素材 | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ |
| GPU 需求 | 高(生图/生视频) | 低 | 低 | 低 | 高 | 低 | 无 | 中(ML推理) |
| 原创度 | 高(AI生成) | 高(自有素材) | 中 | 中 | 高 | 低(搬运) | N/A | N/A(不生成) |
| 批量能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | N/A |
| 画面质量 | ⭐⭐⭐⭐(AI生成) | 取决于素材 | ⭐⭐⭐⭐⭐(原片) | ⭐⭐⭐⭐⭐(原片) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐(原片) | ⭐⭐⭐⭐⭐ | N/A |
| 技术门槛 | 中 | 低 | 低 | 低 | 高 | 低 | 极低 | 低(Docker) |
| 适合场景 | 知识科普/口播 | 带货/短剧推广 | 直播切片/播客 | 影视解说 | 创意短剧 | 视频搬运 | Vlog/教程 | 大量素材管理 |
| 成本 | GPU + API | LLM API | ASR + LLM | LLM + TTS | GPU + LLM | ASR + TTS | 免费 | 硬件(本地) |
四、最佳方案推荐
🏆 场景 1:短剧/带货素材混剪
最佳方案:MoneyPrinterPlus + pyJianYingDraft
自有素材库(产品视频/图片/短剧片段)
↓
MoneyPrinterPlus
├── AI 分析素材内容和情绪
├── 智能选取和排列
├── 自动去重(感知哈希)
├── 配音 + 字幕生成
↓
pyJianYingDraft(生成剪映工程文件)
├── 专业级转场效果
├── 花字/贴纸/特效
├── 精准字幕样式
↓
剪映批量导出(可微调也可直接导出)
为什么是最优解:
- 剪映的渲染质量远超 FFmpeg(转场/特效/字幕效果)
- pyJianYingDraft 是关键桥梁——把 AI 决策转化为剪映可执行的工程
- 分钟级可产出上千条不重复视频
- 支持多平台格式(抖音/快手/小红书/视频号)
🏆 场景 2:AI 生成视频(零素材)
最佳方案:Pixelle-Video(22.7k⭐)
输入主题关键词
↓
LLM 生成分段脚本 + 画面描述
↓
ComfyUI / DashScope / WAN2.1 生成 AI 配图或视频
↓
Edge-TTS / Index-TTS 语音合成
↓
自动合成(含字幕、BGM、模板风格)
为什么选 Pixelle-Video 而非 MoneyPrinterTurbo:
- Pixelle 用 AI 生成画面(Diffusion),画面独特不重复
- MoneyPrinterTurbo 用公共库匹配,素材同质化严重
- Pixelle 支持数字人口播、动作迁移、图生视频等高级能力
- 支持 ComfyUI 工作流,可灵活接入最新模型(WAN2.1、Kling、Seedance)
- Web UI 完善,Windows 一键整合包
MoneyPrinterTurbo 仍适合的场景:不需要 GPU、要求极简部署、对画面独特性要求不高。
🏆 场景 3:长视频切短视频(直播/播客切片)
最佳方案:FunClip(阿里达摩院)+ AutoClip
FunClip(精准裁剪):
长视频 → FunASR 中文转录(业界领先精度)→ LLM 识别高光 → 精准裁剪
AutoClip(完整平台):
YouTube/B站 URL → 自动下载 → AI 分析 → 切片 → 智能合集 → Web 管理
选择建议:
- 追求 ASR 精度和裁剪精确性 → FunClip
- 需要完整平台(下载/管理/合集/发布)→ AutoClip
- 做直播实时切片 → ChopperBot
🏆 场景 4:影视解说
最佳方案:NarratoAI
影视原片 → AI 理解剧情 → 生成解说文案 → 情感化 TTS → 按节奏剪辑 → 成片
🏆 场景 5:视频翻译/搬运
最佳方案:VideoLingo(字幕精度最优)或 KrillinAI(语言覆盖最广)
| 维度 | VideoLingo | KrillinAI |
|---|---|---|
| 字幕精度 | ⭐⭐⭐⭐⭐(Netflix级) | ⭐⭐⭐⭐ |
| 语言数量 | 多语言 | 100+ |
| 配音质量 | CosyVoice 克隆 | 多 TTS 后端 |
| 部署 | Python | Go(轻量) |
| 平台适配 | 通用 | 优化抖音/B站/YouTube |
🏆 场景 6:前沿 Agentic 方案(创意短剧/高质量生成)
最佳方案:ViMax(10.1k⭐)或 Toonflow(10k⭐)
ViMax:适合想让 AI 从零创作视频的场景,Agent 自主充当导演/编剧/制片。
Toonflow:适合小说/剧本→动画短剧的场景,集成 AI 编剧、智能分镜、角色与视频生成。
🏆 场景 7:终极组合方案(2026 最前沿)
组合:LLM Agent + 多模态分析 + pyJianYingDraft + Pixelle-Video
用户描述需求
"用这批产品素材 + AI 生成的场景视频,做 10 条 30 秒带货短视频,节奏要快"
↓
LLM Agent(剪辑决策大脑)
↓ 调用工具链
┌──────────────────────────────────────────────────┐
│ FunASR 转录 │ CLIP 画面分析 │ 情绪节奏检测 │
│ Pixelle-Video 生成补充画面 │
│ WAN2.1 文/图生视频 │
└──────────────────────────────────────────────────┘
↓
Agent 输出剪辑决策(结构化 JSON)
- 时间轴:哪些片段、什么顺序
- 转场:每个切点的转场方式
- 字幕:样式、位置、动画
- BGM:节奏点匹配
↓
pyJianYingDraft 生成剪映草稿
↓
剪映渲染 → 多平台分发
核心理念:AI 做决策,专业软件做渲染。这是目前最高效的范式。
🏆 场景 8:海量素材管理与智能检索
最佳方案:Edit Mind(1.6k⭐)
TB 级本地素材库(硬盘/NAS/外置盘)
↓
Edit Mind Docker 部署,后台持续索引
├── Whisper 转录所有语音内容
├── YOLO 检测画面中的物体
├── DeepFace 识别人脸(按人物搜索)
├── LLM 生成每个场景的自然语言描述
├── OCR 识别画面文字
↓
自然语言搜索:"@张三 在办公室讨论方案的片段"
↓
精准定位 → 一键发送到 DaVinci Resolve / Final Cut Pro 时间线
为什么选 Edit Mind:
- 解决了剪辑工作流的最大痛点:从 TB 级素材中"找到那个镜头"
- 100% 本地运行,适合保密项目(NDA/未发布内容/版权素材)
- 多模态搜索(语音+画面+人脸+文字),不只是关键词匹配
- 已集成 DaVinci Resolve 和 Final Cut Pro 插件,搜索结果直达时间线
- Docker 一键部署,支持 NVIDIA CUDA 加速
- 可作为其他自动剪辑工具的上游基础设施
适合人群:拥有大量素材的专业剪辑师、工作室、纪录片团队、自媒体创作者
注意:Edit Mind 不做剪辑,定位是"剪辑师的第二大脑"。搭配路线 B 的混剪工具或场景 7 的终极方案可构建完整的 AI 剪辑工作流。
五、关键技术组件清单
| 组件类别 | 推荐方案 | 说明 |
|---|---|---|
| 语音识别 (ASR) | FunASR(中文最优)/ Whisper(多语言) | 一切分析的基础 |
| 文生图 | Flux / SDXL / 通义万相 | 配合 ComfyUI 工作流 |
| 文生视频 | WAN2.1 / Kling / CogVideo / HunyuanVideo | 动态画面生成 |
| 图生视频 | WAN2.1 / Seedance / Kling | 静态图→动态视频 |
| 语音合成 (TTS) | CosyVoice(克隆)/ ChatTTS / Edge-TTS / Index-TTS | 多音色、情感化 |
| 视觉理解 | CLIP / Gemini Vision / 通义千问 VL | 画面语义分析 |
| LLM 决策 | GPT-4o / Claude / DeepSeek / 通义千问 | 脚本生成+剪辑决策 |
| 视频处理 | FFmpeg(裁剪/合成)/ MoviePy | 基础处理 |
| 高质量渲染 | pyJianYingDraft→剪映 / pyCapCut→CapCut | 专业特效/转场/字幕 |
| 工作流引擎 | ComfyUI / RunningHub | AI 生图/生视频的编排 |
| 人脸追踪 | MediaPipe / RetinaFace | 竖屏裁切人脸居中 |
| 人脸识别 | DeepFace / InsightFace | 按人物检索素材(Edit Mind) |
| 物体检测 | YOLOv8+ | 画面内容标注与检索 |
| 向量数据库 | ChromaDB / Milvus | 多模态语义搜索基础设施 |
| 数字人 | MuseTalk / SadTalker / Pixelle 数字人模块 | 口播类内容 |
六、技术趋势总结
2025→2026 的三大变化
-
从"匹配素材"到"生成素材"
- 2025:从 Pexels/Pixabay 匹配库存视频
- 2026:用 WAN2.1/Kling/Seedance 直接 AI 生成,画面独特不重复
-
从"管道式"到"Agent 式"
- 2025:固定管道(ASR→LLM→FFmpeg)
- 2026:多 Agent 协作(导演/编剧/剪辑师各司其职),支持迭代优化
-
从"代码渲染"到"借力专业软件"
- 2025:FFmpeg/MoviePy 直出,效果粗糙
- 2026:生成剪映/CapCut 工程文件,借用专业软件的渲染能力
核心结论
谁先把 Agent 的决策能力和剪映/达芬奇的渲染能力无缝打通,谁就赢了这个赛道。
pyJianYingDraft(3.5k⭐)是当前这个桥梁的最佳实现。它不生成视频,只生成"剪辑方案"——但这正是 AI 最擅长的事。
七、快速决策表
| 你的情况 | 推荐方案 | 上手难度 |
|---|---|---|
| 有自有素材,要批量混剪 | MoneyPrinterPlus + pyJianYingDraft | ⭐⭐ |
| 零素材,要 AI 生成视频 | Pixelle-Video | ⭐⭐ |
| 零素材,要最简单的方案 | MoneyPrinterTurbo | ⭐ |
| 有长视频,要切精彩片段 | FunClip / AutoClip | ⭐⭐ |
| 做影视解说 | NarratoAI | ⭐⭐ |
| 做直播切片 | ChopperBot / AutoClip | ⭐⭐⭐ |
| 视频翻译搬运 | VideoLingo / KrillinAI | ⭐⭐ |
| 录制视频去废话 | auto-editor | ⭐ |
| 小说→动画短剧 | Toonflow | ⭐⭐ |
| TB 级素材库,快速找片段 | Edit Mind | ⭐⭐ |
| 最前沿 Agent 方案 | ViMax / 自建 Agent + pyJianYingDraft | ⭐⭐⭐⭐ |
Star 数据截至 2026 年 6 月 17 日,实际数字请以 GitHub 为准。
参考项目链接:
- Edit Mind - 本地视频知识库 & 语义搜索
- Pixelle-Video - AI 全自动短视频引擎
- MoneyPrinterTurbo - 一键文生短视频
- ViMax - Agentic 视频生成
- Toonflow - AI 短剧创作工具
- FunClip - 语音驱动精准裁剪
- AutoClip - AI 视频智能切片
- pyJianYingDraft - Python 生成剪映草稿